LLM and Compression report

Author

Vojtěch Máčala

This will be a running report of the “want todos”, “need todos”, “doings”, and “dones”. Over time, I hope that I will go from many “todos” and few “dones” to lots of “dones” and few “todos”.

1) Tasks

Zadani: Úkolem studenta či studentky by mělo být:

  1. Otestovat existující jazykové modely, ať už natrénované na přirozeném jazyku či genomických sekvencích (DNABERT, DNABERT-2)

  2. Stanovit jejich kompresní poměr na lidském genomu (případně dalších organismů) a porovnat je s běžnými modely komprese (gzip, 7zip).

  3. Dále by mohlo být zajímavé zjistit, za jakou část komprese může tokenizer a za jakou samotný jazykový model.

  4. Protože na rozdíl od přirozeného jazyka se bude komprese jednotlivých částí genomu velmi lišit, mohlo by být zajímavé vyrobit “mapu informačního obsahu” napříč lidským genomem.

  5. Bonusovým úkolem by pak bylo otestovat, jestli lze takovouto mapu využít k zlepšení tréningu jazykového modelu (informačně hutnější úseky trénovat vícekrát).

1. Test existing language models trained on genomic sequences.

HuggingFace link

train loss

train loss

val loss

val loss

val perplexity

val perplexity

HuggingFace link

train loss

train loss

val loss

val loss

val perplexity

val perplexity

HuggingFace link

train loss

train loss

val loss

val loss

val perplexity

val perplexity

HuggingFace link

train loss

train loss

val loss

val loss

val perplexity

val perplexity